Lenia is a family of cellular automata (CA) generalizing Conway's Game of Life to continuous space, time and states. Lenia has attracted a lot of attention because of the wide diversity of self-organizing patterns it can generate. Among those, some spatially localized patterns (SLPs) resemble life-like artificial creatures. However, those creatures are found in only a small subspace of the Lenia parameter space and are not trivial to discover, necessitating advanced search algorithms. We hypothesize that adding a mass conservation constraint could facilitate the emergence of SLPs. We propose here an extension of the Lenia model, called Flow Lenia, which enables mass conservation. We show a few observations demonstrating its effectiveness in generating SLPs with complex behaviors. Furthermore, we show how Flow Lenia enables the integration of the parameters of the CA update rules within the CA dynamics, making them dynamic and localized. This allows for multi-species simulations, with locally coherent update rules that define properties of the emerging creatures, and that can be mixed with neighbouring rules. We argue that this paves the way for the intrinsic evolution of self-organized artificial life forms within continuous CAs.
translated by 谷歌翻译
Students' ability to ask curious questions is a crucial skill that improves their learning processes. To train this skill, previous research has used a conversational agent that propose specific cues to prompt children's curiosity during learning. Despite showing pedagogical efficiency, this method is still limited since it relies on generating the said prompts by hand for each educational resource, which can be a very long and costly process. In this context, we leverage the advances in the natural language processing field and explore using a large language model (GPT-3) to automate the generation of this agent's curiosity-prompting cues to help children ask more and deeper questions. We then used this study to investigate a different curiosity-prompting behavior for the agent. The study was conducted with 75 students aged between 9 and 10. They either interacted with a hand-crafted conversational agent that proposes "closed" manually-extracted cues leading to predefined questions, a GPT-3-driven one that proposes the same type of cues, or a GPT-3-driven one that proposes "open" cues that can lead to several possible questions. Results showed a similar question-asking performance between children who had the two "closed" agents, but a significantly better one for participants with the "open" agent. Our first results suggest the validity of using GPT-3 to facilitate the implementation of curiosity-stimulating learning technologies. In a second step, we also show that GPT-3 can be efficient in proposing the relevant open cues that leave children with more autonomy to express their curiosity.
translated by 谷歌翻译
近年来,大型语言模型(LLMS)在自然语言产生中表现出了令人印象深刻的实力。提高发电多样性的一种常见做法是从模型中采样多个输出。但是,缺乏一种简单且可靠的方式来从这些随机样品中选择最佳输出。作为一个案例研究,在问题产生的背景下,我们提出了两种基于迅速的方法,以从一组LLM生成的候选人中选择高质量问题。我们的方法在1)限制下起作用,一个黑框(不可修改)问题生成模型和2)缺乏访问人类宣传的参考文献 - 这两者都是现实世界中LLMS的现实局限性。通过自动和人类评估,我们从经验上证明,我们的方法可以有效地选择比贪婪的生成更高质量的问题。
translated by 谷歌翻译
在这个扩展的摘要中,我们讨论了研究本质上动机的代理在文本环境中探索的机会和挑战。我们认为,文本环境和自主代理之间存在重要的协同作用。我们确定文本世界的关键特性,使其适合自动代理人的探索,即深度,广度,进步,壁ni和语言目标的易用性;我们确定了在文本世界中可实施的这些代理商的探索驱动力。我们讨论使用自主代理在文本环境基准上取得进展的机会。最后,我们列出了一些在该领域需要克服的具体挑战。
translated by 谷歌翻译
众所周知,在漫长的地平线和稀疏的奖励任务中,加强学习(RL)是困难的,需要大量的培训步骤。加快该过程的标准解决方案是利用额外的奖励信号,将其塑造以更好地指导学习过程。在语言条件的RL的背景下,语言输入的抽象和概括属性为更有效地塑造奖励的方式提供了机会。在本文中,我们利用这一想法并提出了一种自动奖励塑形方法,代理商从一般语言目标中提取辅助目标。这些辅助目标使用问题生成(QG)和问题答案(QA)系统:它们包括导致代理商尝试使用其自己的轨迹重建有关全球目标的部分信息的问题。当它成功时,它会获得与对答案的信心成正比的内在奖励。这激励代理生成轨迹,这些轨迹明确解释了一般语言目标的各个方面。我们的实验研究表明,这种方法不需要工程师干预来设计辅助目标,可以通过有效指导探索来提高样品效率。
translated by 谷歌翻译
人类的文化曲目依赖于创新:我们连续和层次上探讨如何将现有元素组合起来创建新的能力。创新不是孤独的,它依赖于以前解决方案的集体积累和合并。机器学习方法通​​常假定完全连接的多代理网络最适合创新。然而,人类实验室和现场研究表明,动态沟通拓扑可以更强大地实现等级创新。在动态拓扑结构中,人类在单独或小簇中进行创新之间振荡,然后与他人分享结果。据我们所知,在机器学习中,尚未系统地研究多代理拓扑在创新中的作用。目前尚不清楚a)哪些交流拓扑对于哪些创新任务以及b)共享经验的特性改善了多级创新的最佳选择。在这里,我们使用三个不同的创新任务,使用多级分层问题设置(WordCraft)。我们系统地设计了DQNS的网络,分享了他们在不同拓扑(完全连接,小世界,动态,戒指)中共享其重播缓冲区的体验。比较不同任务的不同经验共享拓扑实现的创新水平,这表明,首先,与人类的发现一致,在动态拓扑中共享的经验可以达到整个任务的最高创新水平。其次,当有一条清晰的创新途径时,经验共享并不那么有用。第三,我们提出的两个指标,共享经验的合规性和多样性可以解释不同任务上不同拓扑的成功。这些贡献可以促进我们对最佳AI-AI,人类和人类协作网络的理解,从而激发未来的工具来促进大型组织的集体创新。
translated by 谷歌翻译
为了解决艰巨的任务,人类提出问题以从外部来源获取知识。相反,经典的加强学习者缺乏这种能力,并且常常诉诸探索性行为。这会加剧,因为很少的当今环境支持查询知识。为了研究如何通过语言教授代理来查询外部知识,我们首先介绍了两个新环境:基于网格世界的Q-babyai和基于文本的Q-Textworld。除了物理互动外,代理还可以查询专门针对这些环境的外部知识源来收集信息。其次,我们提出了“寻求知识”(AFK)代理,该代理学会生成语言命令以查询有助于解决任务的有意义的知识。 AFK利用非参数记忆,指针机制和情节探索奖金来解决(1)无关的信息,(2)一个较大的查询语言空间,(3)延迟奖励有意义的查询。广泛的实验表明,AFK代理在具有挑战性的Q-Babyai和Q-Textworld环境方面优于最近的基线。
translated by 谷歌翻译
我们对学习协调的互动代理感兴趣,即$ BUILDER $ - 执行操作但忽略任务的目标 - 以及$架构师$指导建造者以朝着任务的目标指导。我们定义和探索正式的设置,其中人工代理配备了允许它们同时学习任务的机制,同时同时演变共享通信协议。实验符号学领域表明,从先验的未知指示中学习的人类熟练程度。因此,我们从中获取灵感并提出了建筑师构建器问题(ABP):一个不对称的设置,其中建筑师必须学习指导建设者朝构建特定结构。该架构师知道目标结构,但不能在环境中行动,只能向构建器发送任意消息。另一方面的建筑师可以在环境中采取行动,但没有关于手头的任务的知识,必须学会解决它依赖于架构师发送的消息。至关重要的是,消息的含义最初没有在代理商之间定义,而是必须在整个学习中进行协商。在这些约束下,我们建议建筑师构建器迭代(abig),一个解决方案到架构师 - 建筑师的问题,其中建筑师利用Builder的学习模型指导它,同时构建器使用自模仿学习来加强其导游行为。我们分析ABIG的关键学习机制,并在ABP的二维实例化中测试,其中任务涉及抓取立方体,将它们放在给定位置或构建各种形状。在这种环境中,ABIG导致低级,高频,指导通信协议,不仅使建筑师构建器对能够在手头上解决任务,而且还可以概括到未操作任务。
translated by 谷歌翻译
建立能够参与与人类社会互动的自治代理是AI的主要挑战之一。在深度加强学习(DRL)领域内,这一目标激励了多种作品上体现语言使用。然而,目前的方法在非常简化和非多样化的社交场合中关注语言作为通信工具:语言的“自然”减少到高词汇大小和变异性的概念。在本文中,我们认为针对人类级别的AI需要更广泛的关键社交技能:1)语言在复杂和可变的社会环境中使用; 2)超越语言,在不断发展的社会世界内的多模式设置中的复杂体现通信。我们解释了认知科学的概念如何帮助AI向人类智力绘制路线图,重点关注其社会方面。作为第一步,我们建议将目前的研究扩大到更广泛的核心社交技能。为此,我们展示了使用其他(脚本)社会代理商的多个网格世界环境来评估DRL代理商社交技能的基准。然后,我们研究了最近的Sota DRL方法的限制,当时在Sowisai上进行测试并讨论熟练社会代理商的重要下一步。视频和代码可在https://sites.google.com/view/socialai找到。
translated by 谷歌翻译
舞蹈需要熟练的复杂动作,遵循音乐的节奏,音调和音色特征。正式地,在一段音乐上产生的舞蹈可以表达为建模高维连续运动信号的问题,该信号以音频信号为条件。在这项工作中,我们为解决这个问题做出了两项贡献。首先,我们提出了一种新颖的概率自回归体系结构,该体系结构使用多模式变压器编码器以先前的姿势和音乐背景为条件,以正常的流程为标准化姿势。其次,我们介绍了目前最大的3D舞蹈动机数据集,该数据集通过各种运动捕捉技术获得,包括专业和休闲舞者。使用此数据集,我们通过客观指标和一个用户研究将新模型与两个基准进行比较,并表明建模概率分布的能力以及能够通过大型运动和音乐背景进行的能力是必要的产生与音乐相匹配的有趣,多样和现实的舞蹈。
translated by 谷歌翻译